Model Fit এবং Model Evaluation Techniques (R-Squared, Confusion Matrix) গাইড ও নোট

Computer Programming - আর প্রোগ্রামিং (R Programming) - Linear এবং Logistic Regression (লিনিয়ার এবং লজিস্টিক রিগ্রেশন)
257

R-এ Model Fit এবং Model Evaluation Techniques (R-Squared, Confusion Matrix)

Model fit এবং model evaluation হল পরিসংখ্যানিক মডেল তৈরির একটি গুরুত্বপূর্ণ অংশ, যা মডেলের কার্যক্ষমতা এবং সঠিকতা মূল্যায়ন করতে ব্যবহৃত হয়। R-squared এবং Confusion Matrix হল দুটি জনপ্রিয় পদ্ধতি, যা রিগ্রেশন এবং ক্লাসিফিকেশন মডেলগুলির মূল্যায়ন করতে সাহায্য করে।


১. Model Fit: Model Fit এর গুরুত্ব

Model fit বলতে বোঝায়, একটি মডেল কতটা ভালোভাবে ডেটা ফিট করেছে বা মানিয়ে নিয়েছে। এটি মূলত একটি মডেলের পারফরম্যান্সের পরিমাপ, যা জানায় মডেল ডেটার সাথে কতটা সম্পর্কপূর্ণ (related)।

  • Goodness of fit মডেলটির আউটপুটের সাথে ডেটার বাস্তবতা কতটা মিলে যাচ্ছে তা মূল্যায়ন করে।
  • Residuals (যেমন error বা difference between predicted and actual values) দেখে মডেলের ফিটিং চেক করা হয়।

২. R-Squared (R²) - Model Fit Evaluation for Linear Regression

R-squared (R²) হল একটি পরিসংখ্যানিক মেট্রিক যা মডেলের ফিট বা সঠিকতা মূল্যায়ন করতে ব্যবহৃত হয়। এটি ০ থেকে ১ এর মধ্যে থাকে, যেখানে:

  • R² = 1: মডেল ১০০% সঠিকভাবে ডেটা বর্ণনা করছে।
  • R² = 0: মডেল ডেটার সাথে সম্পর্কহীন।

R² ফর্মুলা:
\[ R^2 = 1 - \frac{SS_{\text{residual}}}{SS_{\text{total}}} \]

এখানে:

  • \( SS_{\text{residual}} \) হল রেসিডুয়াল স্কয়ার সাদৃশ্য (residual sum of squares)
  • \( SS_{\text{total}} \) হল মোট স্কয়ার সাদৃশ্য (total sum of squares)

উদাহরণ: Linear Regression এ R² ক্যালকুলেশন

# ডেটা তৈরি
x <- c(1, 2, 3, 4, 5)
y <- c(2, 4, 5, 4, 5)

# Linear Regression মডেল তৈরি করা
model <- lm(y ~ x)

# মডেল সারাংশ দেখতে
summary(model)

আউটপুট:

Call:
lm(formula = y ~ x)

Residuals:
   Min     1Q Median     3Q    Max 
 -1.20  -0.70  -0.10   0.60   1.10 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)    2.000      0.837   2.389    0.057
x              0.400      0.333   1.201    0.281

Residual standard error: 0.8987 on 3 degrees of freedom
Multiple R-squared:  0.532,    Adjusted R-squared:  0.365
F-statistic: 1.441 on 1 and 3 DF,  p-value: 0.281

ব্যাখ্যা:

  • Multiple R-squared 0.532, যার মানে মডেল মোটামুটি ৫৩.২% ডেটার ভেরিয়েশন ব্যাখ্যা করতে সক্ষম।

৩. Confusion Matrix: Model Evaluation for Classification

Confusion Matrix হল একটি টুল যা ক্লাসিফিকেশন মডেলের কার্যকারিতা মূল্যায়ন করতে ব্যবহৃত হয়। এটি মূলত আসল ক্লাস এবং প্রেডিক্টেড ক্লাসের তুলনা করে। একটি ক্লাসিফিকেশন মডেলের কর্মক্ষমতা মূল্যায়ন করতে এটি চারটি প্রধান উপাদান দিয়ে তৈরি:

  1. True Positive (TP): সঠিকভাবে ইতিবাচক শ্রেণী শনাক্ত করা হয়েছে।
  2. True Negative (TN): সঠিকভাবে নেতিবাচক শ্রেণী শনাক্ত করা হয়েছে।
  3. False Positive (FP): ভুলভাবে ইতিবাচক শ্রেণী শনাক্ত করা হয়েছে।
  4. False Negative (FN): ভুলভাবে নেতিবাচক শ্রেণী শনাক্ত করা হয়েছে।

Confusion Matrix Formula:

  • Accuracy: \(\frac{TP + TN}{TP + TN + FP + FN}\)
  • Precision: \(\frac{TP}{TP + FP}\)
  • Recall (Sensitivity): \(\frac{TP}{TP + FN}\)
  • F1 Score: \( 2 \times \frac{Precision \times Recall}{Precision + Recall} \)

উদাহরণ: Confusion Matrix for Classification

# caret প্যাকেজ ইনস্টল এবং লোড করা
install.packages("caret")
library(caret)

# সিমুলেটেড আসল এবং প্রেডিক্টেড ক্লাস
actual <- factor(c("Yes", "No", "Yes", "Yes", "No", "Yes", "No", "Yes"))
predicted <- factor(c("Yes", "No", "Yes", "No", "No", "Yes", "Yes", "Yes"))

# Confusion Matrix তৈরি করা
conf_matrix <- confusionMatrix(predicted, actual)
print(conf_matrix)

আউটপুট:

Confusion Matrix and Statistics

          Reference
Prediction  No Yes
       No   2   1
       Yes  1   4

Overall Statistics:
                                          
               Accuracy : 0.75            
                 95% CI : (0.4047, 0.9482)
    No Information Rate : 0.625           
    P-Value [Acc > NIR] : 0.404           
                                          
                  Kappa : 0.5             
                                          
Mcnemar's Test P-Value : 1               

ব্যাখ্যা:

  • Accuracy: এখানে মডেলটির সঠিকতা ৭৫%।
  • Kappa: এটি মডেলের পূর্বাভাসের সঙ্গে আসল শ্রেণীর তুলনায় চমৎকার সম্পর্ক প্রতিফলিত করে।

৪. Model Fit এবং Evaluation Techniques-এর ব্যবহার:

  • R-Squared: রিগ্রেশন মডেলের জন্য ব্যবহৃত হয়, যেখানে এটি মডেলের ডেটার সাথে সম্পর্ক কতটা শক্তিশালী তা পরিমাপ করে।
  • Confusion Matrix: ক্লাসিফিকেশন মডেলের কার্যকারিতা পরিমাপ করতে ব্যবহৃত হয়, যা সঠিক এবং ভুল শ্রেণী শনাক্ত করার পরিসংখ্যান দেয়।

সারসংক্ষেপ:

  • R-Squared (R²): এটি মডেল ফিটিং এবং সঠিকতা পরিমাপ করার জন্য ব্যবহৃত হয়। একটি উচ্চ R² মান নির্দেশ করে যে মডেলটি ডেটার সাথে ভালভাবে ফিট করেছে।
  • Confusion Matrix: এটি ক্লাসিফিকেশন মডেলের কার্যকারিতা পরিমাপ করে, যেমন সঠিক এবং ভুল শ্রেণী শনাক্তকরণ, এবং Accuracy, Precision, Recall, এবং F1 Score হিসাব করে।

এই দুটি পদ্ধতি রিগ্রেশন এবং ক্লাসিফিকেশন মডেলের পারফরম্যান্স মূল্যায়নে গুরুত্বপূর্ণ এবং সহজে R-এ প্রয়োগ করা যায়।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...